\[ \hat{p} \pm z_{1-\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
Ele tiver a menor variância entre todos os estimadores não viesados do mesmo parâmetro. Ou seja, entre estimadores corretos em média, o mais eficiente é aquele que apresenta menor dispersão das estimativas, garantindo maior precisão.
Comparamos o erro quadrático médio de ambos, que combina variância e viés do estimador. O estimador com menor EQM é preferível, pois ele tende a produzir estimativas mais próximas do valor verdadeiro do parâmetro, considerando tanto a precisão quanto a exatidão.
Não viesada: a média amostral, em média, é igual à média populacional. Consistente: conforme o tamanho da amostra aumenta, a média amostral converge para a média verdadeira. Eficiente: entre estimadores não viesados, a média amostral tem a menor variância, oferecendo estimativas mais precisas.
proporção de funcionários satisfeitos com o ambiente de trabalho. Eles entrevistaram uma amostra aleatória de 300 funcionários e registraram se cada um estava satisfeito ou insatisfeito com o ambiente de trabalho. Qual método estatístico pode ser utilizado para construir um intervalo de valores para a verdadeira proporção de funcionários satisfeitos na população?
O método Intervalo de Confiança é o método que fornece uma faixa de valores plausíveis para a proporção populacional, considerando a variabilidade amostral e o nível de confiança escolhido
verossimilhança em termos dos cálculos e da intuição do método?.
O método dos momentos estima parâmetros igualando os momentos teóricos (como média e variância) aos momentos calculados da amostra. É simples e direto, usando estatísticas descritivas, mas pode ser menos eficiente, especialmente em amostras pequenas ou com alta variabilidade.
Já o método da máxima verossimilhança busca os parâmetros que maximizam a probabilidade de observar os dados, utilizando toda a informação do modelo probabilístico. Geralmente produz estimativas mais precisas e eficientes, embora o cálculo seja mais complexo, exigindo otimização.
Intuitivamente, o método dos momentos ajusta os parâmetros para que as características básicas da amostra coincidam com as da distribuição teórica, enquanto a máxima verossimilhança procura os parâmetros que tornam os dados observados os mais prováveis.
Em geral, para amostras grandes e baixa variabilidade, ambos os métodos produzem resultados semelhantes. Para amostras pequenas ou alta variabilidade, a máxima verossimilhança é preferível por sua maior eficiência e precisão.
Estimativa intervalar = um intervalo com um nível de confiança que expressa a incerteza da estimativa. Essa distinção é fundamental para a inferência estatística e para comunicar resultados de forma clara e confiável.
n <- 50 # tamanho da amostra
media <- 560 # média amostral
desvio_padrao <- 25 # desvio padrão conhecido (populacional)
conf_niveis <- c(0.90, 0.95, 0.99) # níveis de confiança desejados
calc_ic <- function(media, sigma, n, conf) {
alpha <- 1 - conf
z <- qnorm(1 - alpha/2) # valor crítico da normal padrão
erro <- z * (sigma / sqrt(n))
ic <- c(media - erro, media + erro)
amplitude <- ic[2] - ic[1]
return(list(intervalo = ic, amplitude = amplitude))
}
resultados <- lapply(conf_niveis, function(cl) {
ic <- calc_ic(media, desvio_padrao, n, cl)
cat(sprintf("Intervalo de Confianca %.0f%%: [%.2f , %.2f] - Amplitude: %.2f\n",
cl*100, ic$intervalo, ic$intervalo, ic$amplitude))
return(ic)
amplitude <- ic[2] - ic[1]
})
## Intervalo de Confianca 90%: [554.18 , 554.18] - Amplitude: 11.63
## Intervalo de Confianca 90%: [565.82 , 565.82] - Amplitude: 11.63
## Intervalo de Confianca 95%: [553.07 , 553.07] - Amplitude: 13.86
## Intervalo de Confianca 95%: [566.93 , 566.93] - Amplitude: 13.86
## Intervalo de Confianca 99%: [550.89 , 550.89] - Amplitude: 18.21
## Intervalo de Confianca 99%: [569.11 , 569.11] - Amplitude: 18.21
#Função para calcular intervalo de confiança para média com desvio padrão conhecido (z)
calc_ic <- function(media, sigma, n, conf) {
alpha <- 1 - conf
z <- qnorm(1 - alpha/2) # valor crítico da normal padrão
erro <- z * (sigma / sqrt(n))
ic <- c(media - erro, media + erro)
amplitude <- ic - ic # cálculo correto da amplitude
return(list(intervalo = ic, amplitude = amplitude))
}
resultados <- lapply(conf_niveis, function(cl) {
ic <- calc_ic(media, desvio_padrao, n, cl)
cat(sprintf("Intervalo de Confianca %.0f%%: [%.2f , %.2f] - Amplitude: %.2f\n",
cl*100, ic$intervalo, ic$intervalo, ic$amplitude))
return(ic)
})
## Intervalo de Confianca 90%: [554.18 , 554.18] - Amplitude: 0.00
## Intervalo de Confianca 90%: [565.82 , 565.82] - Amplitude: 0.00
## Intervalo de Confianca 95%: [553.07 , 553.07] - Amplitude: 0.00
## Intervalo de Confianca 95%: [566.93 , 566.93] - Amplitude: 0.00
## Intervalo de Confianca 99%: [550.89 , 550.89] - Amplitude: 0.00
## Intervalo de Confianca 99%: [569.11 , 569.11] - Amplitude: 0.00
n <- 50
media <- 560
sigma <- 25
conf_niveis <- c(0.90, 0.95, 0.99)
for (conf in conf_niveis) {
resultado <- calc_ic(media, sigma, n, conf)
cat(sprintf("Intervalo de Confianca %.0f%%: [%.2f , %.2f] - Amplitude: %.2f\n",
conf*100, resultado$intervalo[1], resultado$intervalo[2], resultado$amplitude))
}
## Intervalo de Confianca 90%: [554.18 , 565.82] - Amplitude: 0.00
## Intervalo de Confianca 90%: [554.18 , 565.82] - Amplitude: 0.00
## Intervalo de Confianca 95%: [553.07 , 566.93] - Amplitude: 0.00
## Intervalo de Confianca 95%: [553.07 , 566.93] - Amplitude: 0.00
## Intervalo de Confianca 99%: [550.89 , 569.11] - Amplitude: 0.00
## Intervalo de Confianca 99%: [550.89 , 569.11] - Amplitude: 0.00
A proporção populacional pp de dias violentos, ou seja, a fração dos dias em que o número de ocorrências policiais foi maior que 11.
Como estamos estimando uma proporção, para amostras suficientemente grandes, o intervalo de confiança aproximado para pp com nível de confiança 1−α1−α é dado por:
p±z1−α/2p(1−p)np±z1−α/2np(1−p)
onde:
pp = proporção amostral de dias violentos.
z1−α/2z1−α/2 = valor crítico da distribuição normal padrão (exemplo: 1,96 para 95% de confiança)
nn = tamanho da amostra
A amostra é aleatória e independente.
O tamanho da amostra é suficientemente grande para que a distribuição da proporção amostral possa ser aproximada por uma normal (regra prática: np>5np>5 e n(1−p)>5n(1−p)>5). Os dados são binários (dia violento ou não).
# Dados fornecidos
ocorrencias <- c(7,11,8,9,10,14,6,8,8,7,8,10,10,14,12,14,12,9,11,13,13,8,6,8,13,10,14,5,14,10)
n <- length(ocorrencias)
# Definindo dia violento: ocorrências > 11
dias_violentos <- sum(ocorrencias > 11)
# Proporção amostral
p_hat <- dias_violentos / n
# Nível de confiança
conf <- 0.95
alpha <- 1 - conf
z <- qnorm(1 - alpha/2)
# Erro padrão
erro_padrao <- sqrt(p_hat * (1 - p_hat) / n)
# Intervalo de confiança
lim_inferior <- p_hat - z * erro_padrao
lim_superior <- p_hat + z * erro_padrao
cat(sprintf("Proporcao amostral de dias violentos: %.3f\n", p_hat))
## Proporcao amostral de dias violentos: 0.333
cat(sprintf("Intervalo de Confianca 95%% para a proporcao: [%.3f, %.3f]\n", lim_inferior, lim_superior))
## Intervalo de Confianca 95% para a proporcao: [0.165, 0.502]
A média populacional do score de crédito, denotada por μμ.
b.Intervalo de confiança (fórmula) a ser utilizado
Como o desvio padrão populacional é desconhecido e a amostra é relativamente pequena, usamos o intervalo de confiança baseado na distribuição t de Student:
xˉ±tn−1,1−α/2×snxˉ±tn−1,1−α/2×ns
onde:
xˉxˉ é a média amostral
ss é o desvio padrão amostral
nn é o tamanho da amostra
tn−1,1−α/2tn−1,1−α/2 é o valor crítico da distribuição t com n−1n−1 graus de liberdade
c.Suposições necessárias para utilização do intervalo de confiança
A amostra é aleatória e independente.
A variável score de crédito segue uma distribuição aproximadamente normal (conforme informado).
O desvio padrão populacional é desconhecido, portanto usamos o desvio padrão amostral.
# Dados fornecidos
scores <- c(661, 595, 548, 730, 791, 678, 672, 491, 492, 583, 762, 624, 769, 729, 734, 706)
# Tamanho da amostra
n <- length(scores)
# Média e desvio padrão amostral
media <- mean(scores)
s <- sd(scores)
# Nível de confiança
conf <- 0.95
alpha <- 1 - conf
# Valor crítico t para 95% e n-1 graus de liberdade
t_critico <- qt(1 - alpha/2, df = n - 1)
# Erro padrão da média
erro_padrao <- s / sqrt(n)
# Margem de erro
margem_erro <- t_critico * erro_padrao
# Intervalo de confiança
lim_inferior <- media - margem_erro
lim_superior <- media + margem_erro
cat(sprintf("Media amostral: %.2f\n", media))
## Media amostral: 660.31
cat(sprintf("Intervalo de Confianca 95%% para a media do score: [%.2f, %.2f]\n", lim_inferior, lim_superior))
## Intervalo de Confianca 95% para a media do score: [609.21, 711.41]
library(ggplot2)
df <- data.frame(score = c(661, 595, 548, 730, 791, 678, 672, 491, 492, 583, 762, 624, 769, 729, 734, 706))
p <- ggplot(df, aes(x = score)) +
geom_histogram(binwidth = 40, fill = "steelblue", color = "black", alpha = 0.7) +
labs(title = "Distribuição dos Scores de Crédito",
x = "Score de Crédito",
y = "Frequência") +
theme_minimal()
Instalar pacote library.packages(“plotly”) para ver iteratividade do gráfico, por favor.
library(plotly)
##
## Anexando pacote: 'plotly'
## O seguinte objeto é mascarado por 'package:ggplot2':
##
## last_plot
## O seguinte objeto é mascarado por 'package:stats':
##
## filter
## O seguinte objeto é mascarado por 'package:graphics':
##
## layout
ggplotly(p)
Segue a resolução detalhada para a análise do IMC, considerando que a variável tem distribuição normal e que o desvio padrão populacional é desconhecido (situação comum). Usaremos o intervalo de confiança para a média baseado na distribuição t de Student.
Análise da amostra de IMC a. Parâmetro que estamos estimando.
A média populacional do IMC, denotada por μμ.
b.Intervalo de confiança (fórmula) a ser utilizado
Como o desvio padrão populacional é desconhecido, o intervalo de confiança para a média com nível de confiança 1−α1−α é dado por:
xˉ±tn−1,1−α/2×snxˉ±tn−1,1−α/2×ns
onde:
xˉxˉ = média amostral
ss = desvio padrão amostral
nn = tamanho da amostra
tn−1,1−α/2tn−1,1−α/2 = valor crítico da distribuição t de Student com n−1n−1 graus de liberdade
Amostra aleatória e independente.
A variável IMC segue distribuição aproximadamente normal (conforme informado).
Desvio padrão populacional desconhecido, por isso usa-se o desvio padrão amostral e distribuição t.
# Dados da amostra de IMC
imc <- c(19.6, 23.8, 19.6, 29.1, 25.2, 21.4, 22, 27.5, 33.5, 20.6, 29.9, 17.7, 24, 28.9,
37.7, 18.3, 19.8, 29.8, 29.7, 31.7, 23.8, 44.9, 19.2, 28.7, 28.5, 19.3, 31, 25.1,
22.8, 30.9, 26.5, 21.2, 40.6, 21.9, 26, 23.5, 22.8, 20.7, 20.5, 21.9)
n <- length(imc)
media <- mean(imc)
s <- sd(imc)
conf <- 0.95
alpha <- 1 - conf
# Valor crítico t para 95% de confiança e n-1 graus de liberdade
t_critico <- qt(1 - alpha/2, df = n - 1)
# Erro padrão da média
erro_padrao <- s / sqrt(n)
# Margem de erro
margem_erro <- t_critico * erro_padrao
# Limites do intervalo de confiança
lim_inferior <- media - margem_erro
lim_superior <- media + margem_erro
cat(sprintf("Média amostral do IMC: %.2f\n", media))
## Média amostral do IMC: 25.74
cat(sprintf("Intervalo de Confianca 95%% para a media do IMC: [%.2f, %.2f]\n", lim_inferior, lim_superior))
## Intervalo de Confianca 95% para a media do IMC: [23.77, 27.71]
Estimativa do tempo médio de reação a. Parâmetro que estamos estimando
A média populacional do tempo de reação, denotada por μμ.
Como o desvio padrão populacional σσ é conhecido, e a amostra tem tamanho n=20n=20, o intervalo de confiança para a média com nível de confiança 1−α1−α é dado por:
xˉ±z1−α/2×σnxˉ±z1−α/2×nσ
onde:
xˉxˉ é a média amostral
z1−α/2z1−α/2 é o valor crítico da distribuição normal padrão
σσ é o desvio padrão populacional
nn é o tamanho da amostra
c.Suposições necessárias
A amostra é aleatória e independente.
O tempo de reação segue uma distribuição normal.
O desvio padrão populacional é conhecido.
# Dados da amostra
tempos <- c(2.9, 3.4, 3.5, 4.1, 4.6, 4.7, 4.5, 3.8, 5.3, 4.9,
4.8, 5.7, 5.8, 5.0, 3.4, 5.9, 6.3, 4.6, 5.5, 6.2)
n <- length(tempos)
media <- mean(tempos)
sigma <- 2 # desvio padrão populacional conhecido
conf <- 0.95
alpha <- 1 - conf
# Valor crítico z para 95% de confiança
z_critico <- qnorm(1 - alpha/2)
# Erro padrão da média
erro_padrao <- sigma / sqrt(n)
# Margem de erro
margem_erro <- z_critico * erro_padrao
# Limites do intervalo de confiança
lim_inferior <- media - margem_erro
lim_superior <- media + margem_erro
cat(sprintf("Média amostral do tempo de reação: %.2f minutos\n", media))
## Média amostral do tempo de reação: 4.75 minutos
cat(sprintf("Intervalo de Confiança 95%% para a média do tempo de reação: [%.2f, %.2f] minutos\n", lim_inferior, lim_superior))
## Intervalo de Confiança 95% para a média do tempo de reação: [3.87, 5.62] minutos
# Instalar e carregar o pacote ggplot2, se necessário
# install.packages("ggplot2")
library(ggplot2)
# Dados do tempo de reação
tempos <- c(2.9, 3.4, 3.5, 4.1, 4.6, 4.7, 4.5, 3.8, 5.3, 4.9,
4.8, 5.7, 5.8, 5.0, 3.4, 5.9, 6.3, 4.6, 5.5, 6.2)
# Criar um data frame para ggplot2
df <- data.frame(tempo = tempos)
# Calcular a média amostral
media_tempo <- mean(df$tempo)
# Criar o histograma com linha da média
ggplot(df, aes(x = tempo)) +
geom_histogram(binwidth = 0.5, fill = "skyblue", color = "black", alpha = 0.7) +
geom_vline(aes(xintercept = media_tempo), color = "red", linetype = "dashed", size = 1) +
labs(title = "Análise do Tempo Médio de Reação ao Medicamento",
x = "Tempo de Reação (minutos)",
y = "Frequência") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.